home *** CD-ROM | disk | FTP | other *** search
/ 8bitfiles.net/archives / archives.tar / archives / compuserve-file-archive / 10 Education Games / STATIS.DOC < prev    next >
Text File  |  2019-04-13  |  20KB  |  489 lines

  1.             MINISTAT: A Statistical Package for the Commodore 64
  2.                      Copyright 1989 by Jon Rich, Ph.D.
  3.  
  4. MINISTAT is a statistical package program which performs both univariate and
  5. bivariate inferential and descriptive statistics.  A particularly useful
  6. feature of this package is that the data need to be entered only once.
  7. Once the data file has been set up, one may perform any of the included
  8. statistical tests on any of the variables.
  9.  
  10. A MINISTAT data file is a two dimensional array, or table, of data.  One
  11. dimension is the variables.  These may be subject characteristics, such as
  12. sex or race, subject measurements, such as height, test scores, or running
  13. speed, or any other characteristic on which subjects vary.  The other 
  14. dimension is the cases, or subject number.  Data for a typical MINISTAT
  15. file is shown below:
  16.  
  17.                     Variables
  18.           SEX  RACE HT.  WT1  WT2
  19.       1    1    1   68   143  140
  20. Case  2    2    2   60   105  103
  21. No.   3    1    3   69   162  153
  22.       4    1    2   70   168  160
  23.       5    2    3   63   115  118
  24.       6    2    1   65   123  125
  25.       7    1    2   69   149  147
  26.       8    2    2   67   145  140
  27.       9    1    3   67   123  119
  28.      10    2    1   64   122  114
  29.  
  30. These data are from a test of a weight-loss diet.  For each of the ten
  31. persons in the test, the researcher has recorded the sex (1=male, 2=female),
  32. the race (1=Black, 2=White, 3=Oriental), the height in inches, and the
  33. weight before (WT1) and after (WT2) the diet.  Using MINISTAT, we can
  34. answer a number of questions about these data.
  35.  
  36. STARTING THE PROGRAM
  37.  
  38. Start the program by entering
  39. LOAD "MINISTAT",8
  40. and then entering RUN.  At the title screen you will be given
  41. the opportunity to toggle the color between black on white
  42. and white on blue by pressing the space bar.  Choose the color
  43. combination which is easiest to read, and then proceed to the main
  44. menu by pressing "C". You will then see the main menu, which looks
  45. like this:
  46.  
  47.            SELECT
  48.    A) SAVE          1) DESC
  49.    B) INFO          2) FREQ
  50.    C) OLD           3) REGR
  51.    D) DIR           4) CHI2
  52.    E) NEW           5) T:UR
  53.    F) KILL          6) T:RS
  54.    G) COMP          7) ALPHA
  55.    H) HELP
  56.  
  57. At this point, there is no data file loaded into the program.  The only
  58. options on the menu which will work are "C", which will allow you to
  59. retrieve a previously saved file, "D", which will display the catalog of
  60. previously saved MINISTAT files, "E", which will allow you to input a new
  61. file, "F", which will erase a previously saved file, and "H", which will
  62. allow you to view the help files.
  63.  
  64. SETTING UP THE FILE (Option "E")
  65.  
  66. To set up a new file, hit "E" at the main menu.  You will be asked for
  67. a file name.  This can be anything you wish that you can easily associate
  68. with your study.  We will name this file "DIET."  Next you are asked
  69. "N VARS?" This means "How many variables are in the file?"  In our
  70. example there are five variables, so we enter the number 5.  We
  71. are then asked for N, and we enter 10, meaning there are ten subjects
  72. in the study.  N must be from 2 to 100, and the number of variables
  73. must be from one to 30.
  74.  
  75. Next, MINISTAT asks, NAMES (y or n)?.  This means, "Would you like to name
  76. the variables?"  If we press N, indicating No, MINISTAT will assign the
  77. variables the names V1, V2, etc., and go straight into the data entry
  78. section. If we press Y, we will be given an opportunity to assign
  79. our own names.  For our example, we will press Y. MINISTAT then asks
  80. NAME1? and we enter SEX, the name of our first variable. After NAME2
  81. we input RACE, after NAME3 HT., and so on.
  82.  
  83. Once the file characteristics have been input, we are ready to input the
  84. actual data.  MINISTAT will ask for the first case of the first variable,
  85. continuing down through every case of the first variable, and then go on
  86. to subsequent variables.  For example, MINISTAT will initially print 
  87. SEX - CASE 1?, and we will enter a 1, indicating that the sex of the 
  88. first subject is male.  If we make a mistake, we can back up by simply
  89. pressing ENTER.  The data entry might look like this:
  90.  
  91.    SEX -- CASE 1: 1
  92.    SEX -- CASE 2: 2
  93.    SEX -- CASE 3: 3 (this value is a mistake)
  94.    SEX -- CASE 4: (enter, we back up)
  95.    SEX -- CASE 3: 1
  96.    SEX -- CASE 4: 1
  97.          *
  98.          *
  99.          *
  100.    WT2 -- CASE 9: 119
  101.    WT2 -- CASE 10:114
  102.  
  103. SELECTING A PROCEDURE
  104.  
  105. After the data have been entered, the other options in the menu become
  106. available.  Letters (A through H) select utility procedures; numbers
  107. (1 through 7) select statistical procedures.  A procedure is selected
  108. by simply pressing the corresponding number or letter -- you do not
  109. need to press enter.
  110.  
  111. Procedures that require that a variable be selected will produce a prompt
  112. mark: >?.  This mark indicates that a variable name should be entered.
  113. Some procedures require that more than one variable be entered and will 
  114. produce this mark again until all variables have been entered.
  115. If you input an unrecognized name, two question marks will be 
  116. printed.
  117.  
  118. After a procedure has been executed, you will be asked, if appropriate,
  119. AGAIN (y or n)?.  If you would like to perform the same procedure with
  120. different variables or parameters, type Y.  If you want to return to the
  121. main menu, type N.  Detailed descriptions of each procedure are listed
  122. below.
  123.  
  124.  
  125. 1) DESC
  126.  
  127. This procedure generates descriptive statistics for any of the variables.
  128. If we enter variable WT1, the description looks like this:
  129.  
  130. MEAN: 135.5      VAR: 393.25
  131. S.D.: 19.830532  S.E.: 6.27096
  132. SUM: 1355        N: 10
  133. MAX: 168         MIN: 105
  134.  
  135. Here is what each of these statistics means:
  136.  
  137. N:  The total number of subjects in the sample.
  138. SUM: The sum of all the scores or measurements.
  139. MEAN: This is the average value, the sum divided by N.
  140. MAX, MIN: The maximum and minimum.  The heaviest person in this sample
  141. weighed 168 lbs., the lightest 105 lbs.
  142. VAR: This is the variance of the sample -- to what degree the scores are
  143. spread out or clustered together.
  144. S.D.: The standard deviation, which is the square root of the variance.
  145. In large samples, about 68% of the scores will fall within one standard
  146. deviation of the mean, 95% within two standard deviations.
  147. S.E.: This is the standard error of means, which is the standard deviation 
  148. divided by the square root of N.  This is the standard deviation of the means
  149. of all possible samples of size N.
  150.  
  151. 2) FREQ
  152. This procedure generates a histogram or bargraph.  It shows how many subjects
  153. fall within each of a number of consecutive values or value ranges of a
  154. variable.  The program first asks for a value name, and then for an
  155. interval size.  Choose an interval size which is a fraction of the
  156. total range, but at least equal to the unit of measurement.  Using an
  157. interval size of 2, height is distributed like this:
  158.  
  159. 60 ******* (1)
  160. 62 ******* (1)
  161. 64 ************** (2)
  162. 66 ************** (2)
  163. 68 ********************* (3)
  164. 70 ******* (1)
  165.  
  166. The top bar shows that there is one subject who is at least 60 inches but is 
  167. shorter than 62 inches.  We can see that the modal interval, the one with
  168. the most subjects, is the one with subjects who are at least 68 inches tall,
  169. but shorter than 70 inches.
  170.  
  171. 3) REGR
  172.  
  173. This procedure generates a scattergram, a regression equation, a
  174. correlation coefficient, and a t-value with associated degrees
  175. of freedom.  All of these statistics allow us to examine the relationship
  176. between two variables.
  177.  
  178. The scattergram is a plot of the values of one variable against the values
  179. of another.  A strong positive relationship, as one might expect to find
  180. between variables such as height and weight or job prestige and income, will
  181. show all of the points tightly clustered in a straight line going from
  182. the lower left to the upper right.  A weak relationship, such as that
  183. between nose length and IQ, would show points scattered about in a more
  184. or less random fashion.  A strongly negative relationship, as one might
  185. find between blood alcohol levels and performance on a driving test,
  186. would show points clustered tightly from the upper left down to the
  187. lower right.  The first variable entered is the X variable, shown along
  188. the bottom of the graph.  The second variable entered is the criterion
  189. or Y variable, and is shown along the side.
  190.  
  191. The regression equation is shown below the scattergram.  This is the formula
  192. which does the best job of predicting the Y variable from the X variable.
  193.  
  194. The correlation coefficient (R) quantifies the degree of relationship between
  195. the two variables.  The value of R can range from -1, a perfect negative
  196. relationship, through zero, no relationship, to +1, a perfect positive
  197. relationship.  The t-value along with the degrees of freedom allows one
  198. to test if the relationship is strong enough to be generalized beyond
  199. the sample to the population in general.  The P value shows the
  200. level of significance for the t-value, that is, the likelihood
  201. that the results are due only to chance  and do not reflect a
  202. real effect.  A P of less than .05 is
  203. generally thought of as
  204. significant.
  205.  
  206. If we enter height (HT.) as our first variable, and weight before the
  207. diet as our second variable (WT1), we get these results:
  208.  
  209.      WT1 = (6.094*HT.) + -267.906
  210.      R=0.92
  211.      T=6.631   DF=8   P<.001
  212.  
  213. The regression formula provides a way to predict weight, given a person's
  214. height.  If someone is five feet, or 60 inches tall, we could predict that
  215. they would weigh (6.094*60)-267.906, or 97.7 pounds.
  216.  
  217. The R of .92 is relatively high; it shows us that the relationship is 
  218. strongly positive, and that we can predict one variable from the other
  219. with relatively little error.
  220.  
  221. The t, df, and p values can tell us whether the R is high enough to be
  222. generalized to the population from which we drew our sample, or whether
  223. it might be a fluke found in this particular sample.  P<.001 means that 
  224. there is less than one chance in 1000 that there is no correlation between
  225. height and weight in the population.
  226.  
  227. 4) CHI2
  228.  
  229. This procedure gives a chi-square value, the associated degrees of freedom,
  230. and a contingency table.
  231.  
  232. A chi-square is a measure of association between two variables with nominal
  233. level data.  Data is called nominal level when it is used only to designate
  234. groups, not as scores or rankings.  Zip-codes an example of nominal level
  235. data.  In our example, SEX and RACE are nominal level variables.
  236.  
  237. By looking at the association between SEX and RACE, we can determine whether
  238. the ratio of males to females differs significantly according to race.
  239. The run looks like this:
  240.  
  241. >?SEX
  242. >?RACE
  243.  
  244. SEX   RACE   FREQ   FR EXP
  245.  
  246.  1     1      1      1.5
  247.  1     2      2      2
  248.  1     3      2      1.5
  249.  2     1      2      1.5
  250.  2     2      2      2
  251.  2     3      1      1.5
  252.  
  253. CHI2=0.667   DF=2      N.S.
  254.  
  255. The chi-square value which was derived is below the level needed for
  256. significance at the .05 level.  This is indicated by the notation "N.S."
  257. which means "not significant.  The above results indicate that the proportion
  258. of males to females does not differ significantly among the three different
  259. races in our sample.  If there were a significant relationship,
  260. instead of "N.S.," we would see "P<.05."
  261.  
  262. 5) T:US
  263.  
  264. This procedure performs a t-test for unrelated samples.  It reports the
  265. mean, standard deviation, and N of each group, as well as the pooled
  266. standard error, the t-value, degrees of freedom, and p or probability
  267. value.
  268.  
  269. In this procedure, a criterion variable is split into two groups, and
  270. the mean of the two groups is compared.  Any of the other variables
  271. can be used as grouping variables.  The grouping variable is entered first,
  272. then the criterion variable.  Finally, two value ranges are specified for
  273. the grouping variable.  Subjects who fall into the first range are
  274. designated as "LEVEL 1", those falling within the second range are
  275. "LEVEL 2."
  276.  
  277. Suppose we would like to see if males are, on the average, different in
  278. height from females.  The run would look like this:
  279.  
  280. >?SEX
  281. >?HEIGHT
  282.  
  283. L1,H1: 1,1
  284. L2,H2: 2,2
  285.  
  286.          LEVEL 1       LEVEL 2
  287. MEAN     68.6          63.8
  288. SDEV     1.02          2.315
  289. N        5             5
  290. --------------------------------
  291. S.E.=1.265
  292. T=3.795    DF=8     P=5E-03
  293.  
  294. SEX is the variable which defines the two groups, or levels, and so it
  295. was entered first.  HT. is the criterion variable, and was entered second.
  296. In response to the "L1, H1:," we entered 1,1.  Entering these ones indicated
  297. that the first group of subjects
  298. in which we are interested ranges from one to one, inclusive, on the 
  299. variable "SEX."  This is all the males.  The second group ranges from two
  300. to two, and includes all of the females.
  301.  
  302. Looking at our results, we see that males are, on the average, 68.6 inches
  303. tall, on just under 5'9".  The females are just under 5'4".  Our p-value
  304. is 5E-03, which is 5 times 10 to the -3 power, or .005.  Since this is
  305. less than the conventional .05 level of significance, we can say that
  306. males are taller than females in the population from which
  307. our sample was drawn.
  308.  
  309. 6) T:RS
  310.  
  311. This procedure performs a t-test on related samples.  This test is also
  312. called a matched-pairs or repeated-measures t-test.  The procedure
  313. provides a t-value, associated degrees of freedom, and p or
  314. probability level.  The t-value is positive if the first variable
  315. entered has a large mean; it is negative if the second variable
  316. has a large mean.
  317.  
  318. Related-samples means that the scores are expected to be correlated, and
  319. can reasonably be analyzed in pairs.  Such is the case when the same 
  320. subjects are exposed to two different experimental conditions, or when
  321. some measure is taken before and after a certain treatment.  By analyzing
  322. the difference between pairs of scores instead of groups of scores, the test
  323. becomes more sensitive, and significant  results become more easily
  324. obtained.
  325.  
  326. In these data, perhaps the most interesting question is whether the subjects
  327. weighed significantly less after the diet than they did before it.  The
  328. run would look like this:
  329.  
  330. >? WT1
  331. >? WT2
  332.  
  333. MEAN  135.5     131.9
  334. SDEV  19.831    17.768
  335. T=2.785    DF=9    P=.021
  336.  
  337. Since our p-value of .021 suggests that such results would be rare (obtained
  338. only 21 out of 1000 times) with an ineffective diet, we can conclude that
  339. the diet would be effective if used by others in the population from which
  340. our sample was drawn.
  341.  
  342. 7) ALPHA 
  343. Note: This function is not available in the public domain version of MINISTAT.
  344.  
  345. This procedure calculates coefficient alpha, a measure of the internal
  346. consistency and reliability of a test.  The procedure asks first for
  347. number of items.  Enter the number of test items for which you will be
  348. assessing reliability.  It then prompts you for variables, which are the
  349. names of each test item.  The output shows coefficient alpha, and the
  350. correlation of each item with the sum of all other test items.  This
  351. allows you to judge which items are inconsistent with the rest of the
  352. test, and which you should consider disgarding to increase the test's
  353. reliability.
  354.  
  355. *****
  356.  
  357. UTILITIES
  358.  
  359. A) SAVE
  360.  
  361. This function allows you to save your current file to the disk, so that
  362. you can reanalyze the data at a later time.  It asks if you want to 
  363. change the file name, so if the file has been modified, the new file
  364. can be saved without erasing the original file.
  365.  
  366. B) INFO
  367.  
  368. This command allows you to view information about the current file.
  369. It will show the file name, number of observations (N), and the
  370. variable names.
  371.  
  372. C) OLD
  373.  
  374. This command retrieves a file that had been previously created with
  375. the E) NEW command.  When using this command, if there is already a data
  376. file in memory it will be erased.  To prevent this from accidental file
  377. loss, the program asks if you are sure that you want to load a new file.
  378.  
  379. D) DIR
  380.  
  381. This command lists the data files on the current disk.  It will list
  382. only data files created by this program.
  383.  
  384. E) NEW
  385. This command allows you to create a new data file.  See the section under
  386. "SETTING UP THE FILE" in this document for more details.
  387.  
  388. F) KILL
  389.  
  390. This command can be used to delete any files that have been created by
  391. MINISTAT.  Enter the name of the file at the prompt, and you will either
  392. be told that the file has been killed, or that the file can not be found.
  393.  
  394. G) COMP
  395.  
  396. This option allows you to transform a variable to create a new variable.
  397. For instance, we might want to convert the WT1 variable in our DIET file 
  398. from pounds to kilograms.  We can do this by multiplying by 2.2.  When we
  399. enter the COMP procedure, we are asked "CONSTANT OR VARIABLE?"  Type
  400. C for CONSTANT if you are going to transform your variable with a constant,
  401. type V for VARIABLE if you are going to use another variable to transform
  402. it.  In our example, we will type C, since we are using a constant to
  403. transform pounds to kilograms.  Next, input the variable or constant
  404. which will be used -- in our case, 2.2.  The next step is to select the 
  405. operation, i.e., addition, multiplication, etc.  We are going to
  406. multiply, so we press "*".  Then we enter the variable to be transformed,
  407. WT1.  The program shows us the transformation equation, 2.2*WT1.  We
  408. are then asked for the name of the new variable, the one we have created
  409. by the transformation.  We can either write over an old variable, or we
  410. can create a new one.  For this example, we will pick the name WT3.
  411. The screen will look like this after the transformation:
  412.  
  413. VARIABLE OR CONSTANT? CONSTANT
  414. ? 2.2
  415. SELECT OPERATION: *
  416. >? WT1
  417. 2.2*WT1
  418. NEW VARIABLE>? WT3
  419. ??
  420. COMPUTATION COMPLETED
  421.  
  422. You can use the INFO procedure to reassure yourself that the new
  423. variable is there.
  424.  
  425. H) HELP
  426. Note: This procedure not available in public domain version.
  427.  
  428. HELP will bring you to a help menu very similar to the main menu.
  429. Requesting any procedure while in the HELP area will give a single
  430. screen describing how to use the procedure.  The <at> key will return
  431. you to the main menu.
  432.  
  433. *****
  434.  
  435. PRINTING
  436.  
  437. To print out a screen, first turn on your printer, and then
  438. hit the <F1> key.
  439.  
  440.  
  441.  
  442. ******************************************************
  443. *                                                    *
  444. *             SHAREWARE MESSAGE                      *
  445. *                                                    *
  446. ******************************************************
  447.  
  448. MINISTAT is a shareware program -- that is, try
  449. it out first, and if you find it useful & expect
  450. to continue using it, you pay a shareware fee -- 
  451. a fee which is generally much lower than what you
  452. would pay for equivalent commercially available
  453. software.  There are two options for meeting your
  454. shareware obligation with MINISTAT:
  455.  
  456.   1) Send $10.00 and you will receive aprinted
  457. copy of this manual, along with a disk containing
  458. an enhanced version of the program.  This version
  459. includes a full HELP menu and an additional
  460. statistical procedure (see ALPHA above).  As a
  461. registered user, you will be notified of program
  462. updates, which you will be able to receive if you
  463. send me a blank disk and a self-addressed stamped
  464. envelope.
  465.  
  466.   2) Actually, the $10.00 above barely covers expenses,
  467. and will certainly not make me rich.  Like most shareware
  468. authors (I think), the real satisfaction comes from knowing
  469. that people are using and enjoying the software.  So here is
  470. option #2: your shareware obligation can be met completely
  471. just by COMMENTING on the software.  Send me a note by mail
  472. or CIS e-mail to let me know how you are using the program,
  473. what you like, and what you found confusing.  You can also
  474. send any recommendations for improvement.  If you choose to
  475. make a contribution of less than $10, you are welcome
  476. to do that also, of course.
  477.  
  478. I suspect we all suffer from at least some "shareware guilt,"
  479. from all those programs we have downloaded and not yet paid
  480. for -- so with the two options above you can easily rid
  481. yourself of some of this destructive emotion at low cost
  482. or at no cost.  Thanks for your interest -- have fun
  483. with MINISTAT!
  484.  
  485. --Jon Rich, Ph.D.
  486. 23212-6 Orange Ave.
  487. El Toro, CA 92630-6918
  488. CIS 73367,1326 
  489.